
超越Claude 3.5和o1!8B模型靠「分层投票+测试时训练」逆袭
超越Claude 3.5和o1!8B模型靠「分层投票+测试时训练」逆袭小时候完成月考测试后,老师会通过讲解考试卷中吃错题让同学们在未来取得好成绩。
小时候完成月考测试后,老师会通过讲解考试卷中吃错题让同学们在未来取得好成绩。
当地时间 6 月 4 日,Windsurf CEO Varun Mohan 发帖称,在提前不到五天的通知时间里,Anthropic 切断了其几乎所有 Claude 3.x 模型的直接访问权限(first-party capacity),包括 Claude 3.5 Sonnet、3.7 Sonnet 和 3.7 Sonnet Thinking。
近日,一位 ID 名为 GpsTracker 的网友在网上爆料称,埃隆·马斯克旗下 xAI 公司最新发布的 Grok 3 人工智能模型存在异常行为——当用户激活其“思考模式”提问时,模型竟自称是竞争对手 Anthropic 公司开发的 Claude 3.5 模型。
又是一个让程序员狂欢的研究!来自 OpenHands、耶鲁、南加大和斯坦福的研究团队刚刚发布了 LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架,直接把代码定位准确率拉到了 92.7% 的新高度。该研究已被 ACL 2025 录用。
最顶尖的AI模型,做起奥数题来已经和人类相当,那做物理题水平如何呢?港大等机构的研究发现:即使GPT-4o、Claude 3.7 Sonnet这样的最强模型,做物理题也翻车了,准确率直接被人类专家碾压!
Vending-Bench模拟环境可以测试大模型管理自动售货机的能力,结果显示,Claude 3.5 Sonnet表现最佳,人类屈居第四!
自 Anthropic 推出 Claude Computer Use,打响电脑智能体(Computer Use Agent)的第一枪后,OpenAI 也相继推出 Operator,用强化学习(RL)算法把电脑智能体的能力推向新高,引发全球范围广泛关注。
微软最近与Salesforce Research联合发布了一篇名为《Lost in Conversation》的研究,说当前最先进的LLM在多轮对话中表现会大幅下降,平均降幅高达39%。这一现象被称为对话中的"迷失"。文章分析了各大模型(包括Claude 3.7-Sonnet、Deepseek-R1等)在多轮对话中的表现差异,还解析了模型"迷失"的根本原因及有效缓解策略。
用1/8成本比肩Claude 3.7,刚刚,“欧洲OpenAI”Mistral AI发布多模态新模型。
谷歌Gemini 2.5 Pro(I/O版)横空出世,强势登顶LMAreana,斩获文本、视觉、编码三连冠,甚至编程能力全面碾压Claude 3.7,地表最强编码模型诞生。